Funciones fundamentales de Análisis de Supervivencia
2025-06-01
En esta sección abordaremos los conceptos fundamentales para el análisis de datos de supervivencia, comenzando con funciones de probabilidad clásicas y avanzando hacia funciones específicas como la función de supervivencia y la función de riesgo.
Antes de introducir las funciones de supervivencia y riesgo, recordemos dos funciones clave en probabilidad y estadística:
Describe la distribución de probabilidad de una variable continua \(T\)
No es una probabilidad en sí, pero su integral sí lo es:
\[ P(a < T \leq b) = \int_a^b f(t) \, dt \]
Debe cumplir:
\[ f(t) \geq 0 \quad \text{y} \quad \int_{-\infty}^{\infty} f(t) \, dt = 1 \]
Es la probabilidad de que la variable aleatoria tome un valor menor o igual que \(t\):
\[ F(t) = \int_{-\infty}^t f(u) \, du = P(T \leq t) \]
Propiedades:
Si \(f\) es continua:
\[ f(t) = \frac{d}{dt} F(t) \]
Y también:
\[ F(t) = \int_{-\infty}^t f(u) \, du \]
Estas relaciones son clave para definir funciones como la de supervivencia y la de riesgo, que veremos a continuación.
En análisis de supervivencia, las variables aleatorias de interés \(T\) son no negativas, y se caracterizan no solo por \(f(t)\) o \(F(t)\), sino también por funciones más interpretables:
La función de supervivencia \(S(t)\) y la función de riesgo instantáneo \(h(t)\) son fundamentales para modelar procesos de falla en este tipo de análisis, ver Klein & Moeschberger (2003).
\(S(t) = P(T > t) = 1 - F(t)\)
Representa la probabilidad de sobrevivir más allá del tiempo \(t\).
Propiedades clave:
Sea \(T \sim \text{Exp}(\lambda = 0.5)\), es decir:
\[ f(t) = \lambda e^{-\lambda t}, \quad F(t)=1-e^{-\lambda t}, \quad S(t) = e^{-\lambda t} \]
\(h(t) = \frac{f(t)}{S(t)}\)
Interpretación:
Tasa instantánea de ocurrencia del evento, dado que se ha sobrevivido hasta \(t\).
| Forma del riesgo | Interpretación |
|---|---|
| Riesgo creciente | Envejecimiento |
| Riesgo decreciente | Rejuvenecimiento |
| Riesgo tipo “tina de baño” | Mortalidad neonatal y senil |
| Riesgo tipo “montaña” | Recaída tras tratamiento |
\[ h(t) = \frac{f(t)}{S(t)} \]
Para la distribución exponencial con \(\lambda = 0.5\), \(h(t) = \lambda\), constante.
Comparémosla con la distribución Weibull, donde el riesgo puede aumentar o disminuir con el tiempo.
Para \(T\) discreta con soporte \(\{u_1, u_2, \dots\}\):
\[ h(t) = P(T = t \mid T \ge t) \]
\[ h_k = \frac{P(T = u_k)}{P(T \ge u_k)} = \frac{f(u_k)}{S(u_{k-1})} \]
Usando \(f(u_k) = S(u_{k-1}) - S(u_k)\), se obtiene:
\[ h_k = 1 - \frac{S(u_k)}{S(u_{k-1})} \]
Función de supervivencia:
\[ S(t) = \prod_{u_k \le t} (1 - h_k) \]
Función de densidad:
\[ f(u_j) = h_j \prod_{k<j} (1 - h_k) \]
En demografía, \(h(t)\) representa la probabilidad de morir en el momento \(t\) dado que se ha sobrevivido hasta \(t\).
Dos definiciones equivalentes:
Suma directa: \[ H(t) = \sum_{u_k \le t} h_k \]
Log-transformación: \[ H(t) = - \sum_{u_k \le t} \log(1 - h_k) \]
Ambas son monótonas no decrecientes.
\[ h(t) = \lim_{\varepsilon \to 0} \frac{1}{\varepsilon} P(t < T \le t + \varepsilon \mid T \ge t) = \frac{f(t)}{S(t)} \]
Como \(F(t) = 1 - S(t)\), entonces:
\[ h(t) = -\frac{d}{dt} \log S(t) \]
Al integrar:
\[ \log S(t) = -\int_0^t h(u) \, du \]
\[ S(t) = \exp\left(-\int_0^t h(u) \, du\right) \]
\(h(t)\varepsilon\) es la probabilidad aproximada de que un evento ocurra en el siguiente instante dado que el individuo ha sobrevivido hasta \(t\).
\[ H(t) = \int_0^t h(u)\, du \qquad\Rightarrow\qquad S(t) = \exp\{-H(t)\} \]
Si \(S(\infty) = 0\), entonces \(H(\infty) = \infty\).
Las funciones Surv() y survfit() del paquete survival permiten ajustar y visualizar curvas de Kaplan-Meier de manera eficiente en R, ver Moore (2016) y Therneau & Grambsch (2000).